Inleiding Statistiek
Bennett Kleinberg
Week 1
Week 1
- Waarom hebben we eigenlijk statistiek nodig?
- Over de cursus
- Frequentieverdelingen
Aan de slag
![]()
Maria
Maria is 26 jaar, vrijgezel, openhartig, en erg slim. Ze studeerde af in de rechten. Als student was ze zeer begaan met kwesties van discriminatie en miscarriage of justice en nam ze deel aan wekelijkse demonstraties voor dierenrechten.
Aangepast van Tversky & Kahneman (1983)
Wat is waarschijnlijker?
- A: Maria werkt in een advocatenkantoor
- B: Maria werkt in een advocatenkantoor en doet pro bono werk voor dieren-rechten activisten
Hollywood ruïneert boeken, toch?
Goede boeken worden slechte films!
(demo)
Berkson’s paradox.
Geldt ook voor aantrekkelijkheid en aardigheid in dating
Boekentip: Jordan Ellenberg “How not to be wrong”
YT video van Numberphile
Why should I care?
![]()
- we worden overspoeld met data
- we willen de wereld om ons heen begrijpen
- … vooral: menselijk gedrag en de samenleving
Statistiek is de beste manier om dit te doen.
Stel dat je wilt weten…
- of eenzaamheid toenam tijdens lockdown?
- hoeveel gevaarlijker COVID-19 is voor mensen met kanker?
- hoe betrokkenheid bij online communities samenhangt met extremistische wereldbeelden?
- of een avondklok tot een toename aan rellen leidt?
Statistiek is geen goede manier om deze vragen te benaderen.
Het is de ENIGE manier om deze vragen zinvol te benaderen!
Wat betekent het eigenlijk?
Statistics, the science of collecting, analyzing, presenting, and interpreting data. Britannica
A branch of mathematics dealing with the collection, analysis, interpretation, and presentation of masses of numerical data. Merriam-Webster
Opmerking: dit is \(\neq\) “statistiek als een verzameling van gegevens”
Synopsis van statistiek
- we werken met data in numerieke zin
- we willen informatie uit deze data verkrijgen
- en we willen de onzekerheid begrijpen die met data gepaard gaat
- dit is een aspect waarin het verschilt van wiskundige modellering
En tenslotte: het woord data is de meervoudsvorm van datum.
De data liegen nooit!?
- mensen zullen statistieken gebruiken om hun punten te maken
- dit kan gebruikt worden om te misleiden
- je moet kennis van statistiek hebben om bullshit te herkennen
Nope: nog steeds niet geïnteresseerd!
- sociale + gedragswetenschappen hebben kwantitatieve methoden omarmd
- we proberen processen/attributen/aandoeningen/etc. uit te drukken in getallen
- dus hebben we ook methoden nodig om deze getallen te begrijpen
De speciale rol voor Psychologie
![]()
De uitdaging van het meten
- Menselijk gedrag en sociale processen zijn zeer complex
- Vergelijk dit met een druppel olie
- We zijn vaak geïnteresseerd in de onwaarneembare (Engels: “unobservables”):
- intelligentie
- welzijn
- emoties (angst, verdriet, …), eenzaamheid
- Deze zijn zeer moeilijk te meten!
- En we hebben methoden nodig om meer te weten te komen over mensen in het algemeen (= de populatie)
Dit is de essentie van inferentiële statistiek.
Twee houdingen tegenover statistiek
- Statistiek als gereedschap
- je gebruikt het om je doel te dienen (bv. een inferentie maken op basis van data)
- je hebt een pragmatische relatie met statistiek (bv. om onderzoek te doen en de wereld te begrijpen)
- Statistiek als discipline
- over het verbeteren van statistiek
- over betere manieren om gegevens te modelleren, conclusies te trekken, onzekerheid te kwantificeren
- vooral nu: het begrijpen van enorme hoeveelheden data (gebruik nooit de term Big Data)
Mijn belofte
- Basisstatistiek is vandaag wat lezen gisteren was
- Als je de tijd investeert om de inhoud van dit vak volledig te begrijpen (vraag altijd als iets onduidelijk is), dan komt het wel goed
- Elke meer geavanceerde benadering bouwt voort op deze basisideeën
Als je super pragmatisch bent: statistische vaardigheden betalen (heel) erg goed in het bedrijfsleven
De cursus: structuur
- Colleges (14x)
- Werkgroepen (4x)
- SPSS practica (3x)
Colleges
- wekelijkse video-inhoud
- wekelijkse (live) verdiepingssessie
- incl. Q&A
Werkgroepen
- geleid door onderwijsassistenten
- gepland in B3W4, B3W8, B4W3, B4W6
- doorloopen van oefeningen
SPSS practica
- geleid door onderwijsassistenten
- coördinator: Ghislaine van Bommel
- over het uitvoeren van tests in SPSS
- eerste kennismaking met statistische software
Onze verwachting
| Colleges |
14 |
2u |
28u |
| Werkcolleges |
4 |
2u |
8u |
| SPSS practica |
3 |
2u |
6u |
| Wekelijkse revisie/zelf-studie/voorbereiding |
16 |
6u |
96u |
| Toetsing: SPSS test |
1 |
2u |
2u |
| Toetsing: Eindtentamen |
1 |
3u |
3u |
| TOTAAL |
- |
- |
~140 uren |
Onze verwachting
- bereid de colleges voor
- kijk/woon de lezingen bij en reviseer ze
- maak gebruik van de werkgroepen
- maak het huiswerk
Materiaal
- Statistics for the Behavioral Sciences (Gravetter & Wallnau)
- SPSS survival manual (Pallant)
De cursus: Piazza
- online vraag-en-antwoord platform
- bij twijfel: altijd vragen!
- wij beantwoorden vragen en bekijken jouw antwoorden
- (bekijk de sessie “Introduction to Piazza”)
SPSS test
- beoordeelt jouw vaardigheid om analyses uit te voeren in SPSS
- alle inhoud uit het boek + practica
- test ook het vermogen om resultaten te interpreteren
- gecomputeriseerde test
- Resultaat: PASS/FAIL
Tentamen
- meerkeuzevragen (bijv. goed vs fout; 4 opties)
- standaard 1-10 cijferschaal
- nodig: 5,5 (na correctie op gokkans)
- datum en vorm nog te bevestigen
Basisideeën in de statistiek
- Het idee van data
- Soorten statistisch denken
- Eerste blik op verdelingen
Benaderingen van statistiek
Beschrijvende statistiek
- over het beschrijven van de data
- vaak via samenvattende statistieken (week 2)
- vb. een Spaanse vrouw is gemiddeld 1,63m lang
- b.v. De rijkste 1% bezit 50% van de aandelen in bedrijven
Benaderingen van statistiek
Inferentiële statistiek
- we willen een inferentie maken van iets naar iets anders
- hier: we willen een inferentie (~ gevolgtrekking) maken van de steekproef naar de populatie
Inferentiële statistiek
![]()
data \(\neq\) data
- Lengte (in cm)
- Jaarinkomen (in EUR)
- Roker vs. niet-roker
- Huisdier (hond, kat, hamster, konijn)
- Steun voor Trump (van -5 tot +5)
Dimensies van het data-idee
- constructen vs. operationaliseringen
- Discrete vs continue variabelen
- Verschillende meetniveaus
Constructen vs. operationaliseringen
![]()
Constructen vs operationaliseringen
![]()
Discrete vs continue variabelen
Sommige variabelen kunnen slechts uit een beperkt aantal categorieën bestaan:
- b.v. geslacht, oogkleur, moedertaal
- maar ook: aantal huisdieren, aantal broers en zussen, hoe vaak op vakantie geweest
Er kan geen waarde zijn tussen 1 en 2 huisdieren.
Deze variabelen worden discrete variabelen genoemd.
Discrete vs continue variabelen
Andere variabelen kunnen alle waarden tussen twee punten aannemen:
- b.v. inkomen, lengte, gewicht, snelheid
- je lengte kan in principe worden uitgedrukt als 1,75123461736823837423 meter
- een waarde van een continue variabele (b.v. 1,75 m) is dus eigenlijk een interval
Het meten van variabelen
De nominale schaal (Eng: nominal scale)
- benoemde categorieën (b.v., hond, kat, hamster)
- geen kwantitatief onderscheid tussen categorieën (je kunt niet zeggen een hond is meer dan een kat)
- geen nul!
Het meten van variabelen
De ordinale schaal (Eng: ordinal scale)
- gerangschikte categorieën (b.v. 1e, 2e, 3e)
- geen gelijke afstand tussen de rangen
- geen nul!
Het meten van variabelen
De intervalschaal (Eng: interval scale)
- bestaat uit even grote intervallen tussen waarden
- elke eenheid heeft dezelfde grootte
- b.v. temperatuur:
- van 21 tot 26.
- van \(1^{\circ}C\) naar \(6^{\circ}C\)
- hebben beide hetzelfde verschil
- maar: geen echt nulpunt! (willekeurig gekozen)
Het meten van variabelen
De ratio scale
- bestaat uit even grote intervallen tussen waarden
- elke eenheid heeft dezelfde grootte
- maar nu hebben we wel een absolute nul
- b.v. afstand: een afstand van nul betekent dat je fiets niet van positie veranderd is
Data weergeven
Vandaag:
- data als een frequentieverdeling
- manieren om data weer te geven
- beschrijven van de locatie van datapunten
Voorbeeld
Hoeveel huisdieren heb je?
- we vragen 10 mensen
- zij geven ons het aantal huisdieren dat momenteel in hun huishouden leeft
Onthoud:
- het construct is “aantal huisdieren”
- de operationalisering is "het aantal huisdieren dat momenteel in het hoofdhuishouden van een persoon woont
Onze data
| 1 |
0 |
| 2 |
2 |
| 3 |
2 |
| 4 |
3 |
| 5 |
0 |
| 6 |
1 |
| 7 |
3 |
| 8 |
1 |
| 9 |
1 |
| 10 |
0 |
We willen misschien wat meer structuur
- Misschien kunnen we tellen hoe vaak elke optie voorkomt
- d.w.z. hoeveel mensen hebben 0, 1, 2, … huisdieren?
Dit wordt de frequentie(s) van waarden genoemd.
Frequenties
Een gestructureerde tabel wordt dan een frequentieverdelingstabel genoemd.
Een ander voorbeeld
- iemands geslacht
- opties hier: man - vrouw - liever niet zeggen
| female |
55 |
| male |
38 |
| p-n-t-s |
7 |
Frequentieverdelingen voor continue variabelen
| 31 |
37900 |
| 32 |
37300 |
| 33 |
17000 |
| 34 |
45300 |
| 35 |
25800 |
| 36 |
33600 |
| 37 |
89000 |
| 38 |
20200 |
| 39 |
57900 |
| 40 |
20700 |
Probleem voor een frequentieverdelingstabel?
| 20700 |
1 |
| 21300 |
2 |
| 22400 |
1 |
| 22800 |
1 |
| 22900 |
1 |
| 23700 |
1 |
| 25100 |
1 |
| 25800 |
1 |
| 26700 |
2 |
| 27900 |
1 |
Gegroepeerde frequentieverdelingen
Idee:
- we bundelen enkele waardebereiken samen
- we kunnen hier waarschijnlijk wat meetprecisie verliezen
- voorbeeld:
- laag (0-25000)
- midden (25001-50000)
- boven-midden (50001-75000)
- hoog (75001+)
Grouped income data
| high |
30 |
| low |
27 |
| middle |
24 |
| upper-middle |
19 |
Is dit ideaal?
Wat als we deze twee data verzamelingen hebben?
- aantal huisdieren (\(n=10\))
- aantal huisdieren (\(n=10000\))
Wat verwachten we?
De tabellen vergelijken
| 0 |
2991 |
| 1 |
3057 |
| 2 |
2997 |
| 3 |
472 |
| 4 |
483 |
Oplossing: proporties
| 0 |
2991 |
0.2991 |
| 1 |
3057 |
0.3057 |
| 2 |
2997 |
0.2997 |
| 3 |
472 |
0.0472 |
| 4 |
483 |
0.0483 |
Proportie: \(p = \frac{f}{N}\)
… en percentages
| 0 |
2991 |
0.2991 |
29.91 |
| 1 |
3057 |
0.3057 |
30.57 |
| 2 |
2997 |
0.2997 |
29.97 |
| 3 |
472 |
0.0472 |
4.72 |
| 4 |
483 |
0.0483 |
4.83 |
Percentages: \(p = \frac{f}{N}*100\)
Figuur

Histogrammen

Histogrammen (proporties)

Naast elkaar

Datapunten lokaliseren
- We willen misschien weten waar een waarde ligt ten opzichte van de hele data
- b.v. Zijn 3 huisdieren veel of weinig?
- Waar ligt een inkomen van \(X=40000\) in onze data?
We kunnen punten lokaliseren op basis van de frequentieverdeling.
Percentielen
- We sorteren onze frequentietabel
| 0 |
2991 |
0.2991 |
29.91 |
| 1 |
3057 |
0.3057 |
30.57 |
| 2 |
2997 |
0.2997 |
29.97 |
| 3 |
472 |
0.0472 |
4.72 |
| 4 |
483 |
0.0483 |
4.83 |
Percentielen
- We sorteren onze frequentietabel
- We berekenen een cumulatief percentage (idem voor verhoudingen)
| 0 |
2991 |
0.2991 |
29.91 |
29.91 |
| 1 |
3057 |
0.3057 |
30.57 |
60.48 |
| 2 |
2997 |
0.2997 |
29.97 |
90.45 |
| 3 |
472 |
0.0472 |
4.72 |
95.17 |
| 4 |
483 |
0.0483 |
4.83 |
100.00 |
Percentielen
- We sorteren onze frequentietabel
- We berekenen een cumulatief percentage (idem voor proporties)
- We lokaliseren ons datapunt van belang (hier: het hebben van 3 huisdieren)
| 0 |
2991 |
0.2991 |
29.91 |
29.91 |
| 1 |
3057 |
0.3057 |
30.57 |
60.48 |
| 2 |
2997 |
0.2997 |
29.97 |
90.45 |
| 3 |
472 |
0.0472 |
4.72 |
95.17 |
| 4 |
483 |
0.0483 |
4.83 |
100.00 |
Percentielen interpreteren
- We weten dat 3 huisdieren overeenkomt met een cumulatief percentage van 95,17%
- d.w.z. 95,17% van onze data is geaccumuleerd zodra we 3 huisdieren (inclusief) bereiken
- 95,17% van de antwoorden valt onder 0, 1, 2, of 3 huisdieren.
“3 huisdieren” heeft een percentielrang (Eng: percentile rank) van 95,17%
“3 huisdieren” is het 95ste percentiel
Inkomensdata
| 800 |
1 |
1.0526 |
1.0526 |
| 1100 |
1 |
1.0526 |
2.1052 |
| 1500 |
1 |
1.0526 |
3.1578 |
| 4700 |
1 |
1.0526 |
4.2104 |
| 5700 |
1 |
1.0526 |
5.2630 |
| 9200 |
1 |
1.0526 |
6.3156 |
| 9300 |
1 |
1.0526 |
7.3682 |
| 10300 |
1 |
1.0526 |
8.4208 |
| 10400 |
1 |
1.0526 |
9.4734 |
| 11100 |
1 |
1.0526 |
10.5260 |
Het verkrijgen van percentielen
Waar ligt een inkomen van \(X=40000\) in onze data?
| 37800 |
1 |
1.0526 |
46.3146 |
| 37900 |
1 |
1.0526 |
47.3672 |
| 38500 |
1 |
1.0526 |
48.4198 |
| 41900 |
1 |
1.0526 |
49.4724 |
| 43600 |
1 |
1.0526 |
50.5250 |
Een inkomen van 40.000 heeft een percentielrang van 48,42%.
Recap
- intro van het vak
- eerste stappen
- frequentieverdelingen
- datapunten lokaliseren
Volgende week
Gegevens verder begrijpen:
- centrale tendens van gegevens
- variabiliteit van gegevens